Warning: mkdir(): No space left on device in /var/www/tg-me/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/datarascals/--): Failed to open stream: No such file or directory in /var/www/tg-me/post.php on line 50
Дата канальи — про «специалистов» в данных / ML / AI | Telegram Webview: datarascals/211 -
Telegram Group & Telegram Channel
В комментах под постом про связь оптимизации BCE и ростом NDCG меня попросили рассказать про связь минимизация логлосс и максимизация ROCAUC 🤓

Начну издалека и разобью ответ на несколько постов.

Не из вредности, а из-за того что в ROCAUC как правило, не углубляются и оттого возможны оптические иллюзии (назовем пока так) 🌈

Не верите?

Ну вот для разминки 🏋‍♂️ пара задачек от Александра Дьяконова

Раз
Два

И одна прямиком из статьи:

Если ваш алгоритм максимизирует ROCAUC, максимизирует ли он одновременно площадь под кривой Precision-Recall (AUCPR или AP == average precision)?

Короткий ответ — нет

Хотя кривые из пространства (FPR, TPR) однозначно переводятся в кривые из пространства (Recall, Precision), более того, если одна ROC-кривая везде лучше (или равна) другой (слева-вверху, в литературе называют dominate 🥊) то и в координатах (Recall, Precision) это сохранится, причем наоборот тоже работает.

Пример двух пересекающихся ROC-кривых, в которых при переводе в (Recall, Precision) радикально меняется соотношение площадей под графиками в статье The Relationship Between Precision-Recall and ROC Curves (2006)

Конечно, таких фокусов хочется избежать 🧙‍♂️, для этого все же нужно вспомнить про задачу — редко когда нам надо одинаково хорошо уметь ранжировать по всей выборке, чаще именно ранжировать нужно уметь в каком-то регионе (например по FPR), поэтому у ROCAUC множество модификаций — PAUC (Partial AUC), TPAUC, OPAUC, SAUC, gAUC (generalised AUC), GAUC (group AUC), GAUC@k, LAUC@k (limited AUC) и всякие другие.

Здесь снова вспоминается тезис Александра Дьяконова из неопубликованного (а мб он уже опубликовал?) учебника о том что все банки используют GINI (он же ROCAUC) в задаче PD (определения вероятности наступления дефолта), а ROCAUC не то чтобы в этом случае сильно подходит — IMHO, ровно потому что ранжирование интересно уже выше отсечки одобрения кредита (и там калиброванный PD войдет уже в EL).

Но не скорингом единым — PAUC и другие модификации широко используются в рекомендашках и в поиске (да, и в RAG тоже -- на этапе retrieval).

Если хотите с азов 💾, то про сами сами ROC-кривые, их доверительные интервалы, обобщения на мульткласс можно почитать здесь а про связь ROCAUC с вероятностью корректно ранжировать — в журнале по радиологии за 1982 год.

PS: Если с researchgate сложности - маякните единорожкой, выложу pdf’ки в комментариях

PPS: про связь ROCAUC и логлосс уже в следующем посте, пока лишь намекну статьей про DeepFM (таб. 2)

PPPS: уже почти не удивляюсь когда вижу статью с названием Deep ROC analysis <...> в приличном журнале за 2021 год 😱, вот и вы не удивляйтесь этому посту 😆
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/datarascals/211
Create:
Last Update:

В комментах под постом про связь оптимизации BCE и ростом NDCG меня попросили рассказать про связь минимизация логлосс и максимизация ROCAUC 🤓

Начну издалека и разобью ответ на несколько постов.

Не из вредности, а из-за того что в ROCAUC как правило, не углубляются и оттого возможны оптические иллюзии (назовем пока так) 🌈

Не верите?

Ну вот для разминки 🏋‍♂️ пара задачек от Александра Дьяконова

Раз
Два

И одна прямиком из статьи:

Если ваш алгоритм максимизирует ROCAUC, максимизирует ли он одновременно площадь под кривой Precision-Recall (AUCPR или AP == average precision)?

Короткий ответ — нет

Хотя кривые из пространства (FPR, TPR) однозначно переводятся в кривые из пространства (Recall, Precision), более того, если одна ROC-кривая везде лучше (или равна) другой (слева-вверху, в литературе называют dominate 🥊) то и в координатах (Recall, Precision) это сохранится, причем наоборот тоже работает.

Пример двух пересекающихся ROC-кривых, в которых при переводе в (Recall, Precision) радикально меняется соотношение площадей под графиками в статье The Relationship Between Precision-Recall and ROC Curves (2006)

Конечно, таких фокусов хочется избежать 🧙‍♂️, для этого все же нужно вспомнить про задачу — редко когда нам надо одинаково хорошо уметь ранжировать по всей выборке, чаще именно ранжировать нужно уметь в каком-то регионе (например по FPR), поэтому у ROCAUC множество модификаций — PAUC (Partial AUC), TPAUC, OPAUC, SAUC, gAUC (generalised AUC), GAUC (group AUC), GAUC@k, LAUC@k (limited AUC) и всякие другие.

Здесь снова вспоминается тезис Александра Дьяконова из неопубликованного (а мб он уже опубликовал?) учебника о том что все банки используют GINI (он же ROCAUC) в задаче PD (определения вероятности наступления дефолта), а ROCAUC не то чтобы в этом случае сильно подходит — IMHO, ровно потому что ранжирование интересно уже выше отсечки одобрения кредита (и там калиброванный PD войдет уже в EL).

Но не скорингом единым — PAUC и другие модификации широко используются в рекомендашках и в поиске (да, и в RAG тоже -- на этапе retrieval).

Если хотите с азов 💾, то про сами сами ROC-кривые, их доверительные интервалы, обобщения на мульткласс можно почитать здесь а про связь ROCAUC с вероятностью корректно ранжировать — в журнале по радиологии за 1982 год.

PS: Если с researchgate сложности - маякните единорожкой, выложу pdf’ки в комментариях

PPS: про связь ROCAUC и логлосс уже в следующем посте, пока лишь намекну статьей про DeepFM (таб. 2)

PPPS: уже почти не удивляюсь когда вижу статью с названием Deep ROC analysis <...> в приличном журнале за 2021 год 😱, вот и вы не удивляйтесь этому посту 😆

BY Дата канальи — про «специалистов» в данных / ML / AI




Share with your friend now:
tg-me.com/datarascals/211

View MORE
Open in Telegram


DATARASCALS Telegram Group Telegram | DID YOU KNOW?

Date: |

Pinterest (PINS) Stock Sinks As Market Gains

Pinterest (PINS) closed at $71.75 in the latest trading session, marking a -0.18% move from the prior day. This change lagged the S&P 500's daily gain of 0.1%. Meanwhile, the Dow gained 0.9%, and the Nasdaq, a tech-heavy index, lost 0.59%. Heading into today, shares of the digital pinboard and shopping tool company had lost 17.41% over the past month, lagging the Computer and Technology sector's loss of 5.38% and the S&P 500's gain of 0.71% in that time. Investors will be hoping for strength from PINS as it approaches its next earnings release. The company is expected to report EPS of $0.07, up 170% from the prior-year quarter. Our most recent consensus estimate is calling for quarterly revenue of $467.87 million, up 72.05% from the year-ago period.

Telegram Be The Next Best SPAC

I have no inside knowledge of a potential stock listing of the popular anti-Whatsapp messaging app, Telegram. But I know this much, judging by most people I talk to, especially crypto investors, if Telegram ever went public, people would gobble it up. I know I would. I’m waiting for it. So is Sergei Sergienko, who claims he owns $800,000 of Telegram’s pre-initial coin offering (ICO) tokens. “If Telegram does a SPAC IPO, there would be demand for this issue. It would probably outstrip the interest we saw during the ICO. Why? Because as of right now Telegram looks like a liberal application that can accept anyone - right after WhatsApp and others have turn on the censorship,” he says.

DATARASCALS Telegram Group from cn


Telegram Дата канальи — про «специалистов» в данных / ML / AI
FROM USA